Spearman秩相关 – 简明教程
作者:Ruben Geert van den Berg,归类于相关性 & 统计学A-Z
Spearman秩相关是一个介于-1和+1之间的数值,它表示两个变量之间单调相关的程度。
Spearman相关 - 示例
抽取了1000家公司作为样本,询问了他们在2018年的员工人数和收入情况。为了简化问题,提供了答案类别。完成数据收集后,下面的列联表显示了结果。
我们想回答的问题是:公司规模与收入有关吗?仔细观察我们的列联表,可以明显看出:拥有更多员工的公司通常收入更高。但请注意,这种关系并不完美:有60家公司只有1名员工,收入却在50,000美元 - 99,999美元之间,而有89家公司有2-5名员工,收入却在0美元 - 49,999美元之间。如果我们将结果可视化在下面的图表中,这种关系就会更加清晰。
该图表显示了规模和收入之间无可争议的正单调关系:较大的公司往往比小公司赚取更多的收入。下一个问题是:这种关系的强度有多大?首先想到的选择是计算公司规模和收入之间的Pearson相关系数。但是,这是行不通的,因为我们的数据中没有公司规模或收入。我们只有规模和收入的类别。公司规模和收入在我们的数据中是顺序变量:我们知道2-5名员工比1名员工的规模更大,但我们不知道大多少。
那么,我们可以使用哪些数字来计算顺序变量之间的关联强度呢?嗯,我们可以为我们的类别分配秩次 (ranks),如下所示。
作为最后一步,我们只需计算规模和收入秩次之间的Pearson相关系数。这导致Spearman秩相关(Rs) = 0.81。这告诉我们,我们的变量是强单调相关的。但与正常的Pearson相关系数相反,我们不知道这种关系在多大程度上是线性的。
Spearman秩相关 - 基本属性
正如我们刚才看到的,Spearman相关系数只是在秩次而不是数据值或类别上计算的Pearson相关系数。这导致以下基本属性:
- Spearman相关系数始终介于-1和+1之间;
- Spearman相关系数适用于除名义变量之外的所有变量。但是,当两个变量都是度量变量或二分变量时,Pearson相关系数通常是更好的选择;
- Spearman相关系数表示单调关系,而不是线性关系;
- Spearman相关系数几乎不受异常值的影响。但是,应该将异常值从分析中排除,而不是确定Spearman或Pearson相关系数是否更可取;
- Spearman相关系数与Kendall’s tau的作用完全相同。
Spearman秩相关 - 假设
- Spearman相关系数本身仅假设两个变量至少是顺序变量 (ordinal variables)。这排除了除名义变量之外的所有变量。
- Spearman相关系数的统计显著性检验假设独立观测 (independent observations),或者 - 准确地说 - 独立且同分布的变量。
Spearman相关 - 示例 II
一家公司需要确定牛奶的有效期。因此,他们每小时取一小滴,并分析其中包含的细菌数量。结果如下所示。
对于细菌与时间,
- Pearson相关系数为0.58,但
- Spearman相关系数为1.00。
时间和细菌之间存在完全的单调关系 (perfect monotonous relation):每过一小时,细菌数量都会增加。但是,正如Pearson相关系数所示,这种关系非常非线性。
这个例子很好地说明了这些相关系数之间的区别。但是,我认为不应该在此处报告Spearman相关系数。相反,使用(可能是指数)函数对这种曲线关系进行建模。这可能会精确地预测细菌数量。
Spearman相关 - 公式和计算
首先,此Google表格中给出了一个示例计算、精确的显著性水平 (significance levels)和临界值(如下所示)。
好的。现在,计算Spearman秩相关系数总是从用秩次替换分数开始(对并列情况使用平均秩次)。Spearman相关系数现在计算为(平均)秩次上的Pearson相关系数。
或者,使用以下公式计算Spearman相关系数:
\[R_s = 1 - \frac{6\cdot \Sigma \;D^2}{n^3 - n}\]
其中 \(D\) 表示每个观测值的两个秩次之间的差异。
对于N ≥ 30的合理的样本量 (reasonable sample sizes),(近似)统计显著性使用t分布。 在这种情况下,检验统计量
\[T = \frac{R_s \cdot \sqrt{N - 2}}{\sqrt{1 - R^2_s}}\]
服从自由度为
\[Df = N - 2\]
的t分布。
对于N < 30的较小样本量 (smaller sample sizes),此近似值不准确。在这种情况下,从此Google表格中给出的表格中查找(精确的)显著性水平。 这些精确的p值基于置换检验,我们可能会在其他时间讨论。 或者不。
Spearman秩相关 - 软件
Spearman相关系数可以在Google表格或Excel中计算,但统计软件是一种更容易的选择。JASP - 可以免费下载 - 会得出正确的Spearman相关系数及其显著性水平,如下所示。
SPSS 也会得出正确的相关系数。但是,它的显著性水平基于t分布:
\[t = \frac{0.77\cdot\sqrt{4}}{\sqrt{(1 - 0.77^2)}} = 2.42\]
以及
\[t(4) = 2.42,\;p = 0.072 \]
同样,此近似值仅适用于N≥30的较大样本量。对于N = 6,它会严重偏离,如下所示。